Copa del mundo FIFA a través de los años.
Trabajo final de la materia Manejo
y visualización de datos,
Maestría en Estadística Aplicada,
UNR.
1 Introducción
El presente documento se creó a partir del repositorio de GitHub del
usuario Jfjelstul, el
cual consta de 27 datasets (aproximadamente 1.1 millones de datos) que
cubren todos los aspectos de las 22 ediciones de la Copa del Mundo desde
1930 a 2022.
En base a estos datos, se los trabajó para convertirlos
en información y elaborar gráficos e indicadores que sirvan para tener
un pantallazo de la historia de la copa más famosa y anhelada en el
mundo deportivo.
En la Copa Mundial Masculina de la FIFA, que se
celebra cada cuatro años, 32 naciones compiten entre sí por el título.
Los distintos clasificatorios continentales dan paso a una fase final de
lo más emocionante, que congrega a los aficionados en torno a la pasión
y el amor por el deporte rey.
2 Materiales y métodos
Este torneo fue mutando a lo largo de los años acompañando la propia
historia de los países. Desde 1930 han ocurrido un sinfín de eventos
mundiales que repercutieron en los equipos participantes. Eventos tales
como países que se separan, que se unen, que cambian de nombres; obligan
a realizar una serie de modificaciones en la base de datos.
Estas
modificaciones forman parte de la limpieza y orden de los datos. A fines
de poder representar la performance de territorios que han cambiado de
nombre y bandera, se hicieron las siguientes modificaciones en todas las
tablas que se descargaron del paquete worldcup:
goals$team_name[goals$team_name == "West Germany"] <- "Germany"
goals$team_name[goals$team_name == "East Germany"] <- "Germany"
goals$team_name[goals$team_name == "England"] <- "United Kingdom"
goals$team_name[goals$team_name == "Wales"] <- "United Kingdom"
goals$team_name[goals$team_name == "Northern Ireland"] <- "United Kingdom"
goals$team_name[goals$team_name == "Scotland"] <- "United Kingdom"
goals$team_name[goals$team_name == "Republic of Ireland"] <- "Ireland"
goals$team_name[goals$team_name == "North Korea"] <- "Dem. Rep. Korea"
goals$team_name[goals$team_name == "South Korea"] <- "Dem. Rep. Korea"
goals$team_name[goals$team_name == "Ivory Coast"] <- "Côte d'Ivoire"
goals$team_name[goals$team_name == "Serbia and Montenegro"] <- "Serbia"
goals$team_name[goals$team_name == "Yugoslavia"] <- "Serbia"
goals$team_name[goals$team_name == "Czechoslovakia"] <- "Czech Republic"
goals$team_name[goals$team_name == "Russia"] <- "Russian Federation"
goals$team_name[goals$team_name == "Soviet Union"] <- "Russian Federation"
Pensar en la copa del mundo es pensar en ciertos países que
históricamente han destacado en el futbol. No solo por haber ganado el
primer lugar sino por siempre mantenerse en el podio.
La tabla
“tournament_standings” provee información sobre los resultados de cada
torneo. Particularmente almacena información sobre el primer, segundo,
tercer y cuarto puesto de cada edición del torneo. Con esta información
se diseñará un indicador para puntuar la performance de los países
teniendo en cuenta cuantas veces logró estar entre los primeros 4
puestos. El objetivo es construir un indicador que sea más
representativo que la cantidad de veces que cada país ganó la copa.
Entonces, el indicador “Score” refleja la cantidad de veces que un
equipo fue finalista o semifinalista en esta competición, otorgándole 1,
2, 3 o 4 puntos dependiendo si su posición fue cuarta, tercera, segunda
o primera respectivamente.
El indicador “primer_puesto” es la
cantidad de veces que un equipo ganó la copa del mundo
De esta
manera, la tabla de posiciones considerando todos los mundiales queda de
la siguiente manera:
La misma información la podemos observar de manera gráfica, de manera tal que los paises con un score más alto, aparecen graficados más grandes y de colores más oscuros:
3 Resultados
Teniendo los datasets organizados se prosigue a transformar los datos en información, con el objetivo de representarlos en gráficos amigables, intuitivos e interesantes.
3.1 Bar chart race
Además del score que se construyó anteriormente, es interesante observar la cantidad de goles que ha convertido cada país a lo largo de la historia. De esta manera, se muestra en el siguiente gráfico, por año, el ranking de los países con más goles acumulados.
3.2 Variables en el mapa
Para una interpretación más amigable, se muestran los resultados que
ha tenido cada país sobre un mapa interactivo.
De esta forma se
puede observar, para cada país:
- Cuantos goles ha convertido a lo largo de todos los mundiales,
- Cual es su score actual en base a cuantas veces fue finalista o
semifinalista, y
- Cuantas veces ha sido anfitrión de un torneo.
Los países se colorean en base a la cantidad de goles que han convertido.
3.3 Variables por partido jugado
Puede ser de interés visualizar como han ido evolucionando algunas
variables a lo largo de los años. ¿Ahora se convierten más goles que
antes?, ¿Las faltas y sustituciones en los equipos variaron o siempre
fueron aproximadamente similares?
Para responder estas preguntas,
Se va a normalizar en base a los partidos jugados las siguientes
variables:
- Goles,
- Sustituciones,
- Faltas (tarjeta amarilla y roja),
- Penales concedidos, y
- Penales convertidos.
De esta manera, se podrá visualizar la cuantía de las variables
anteriormente mencionadas por partido jugado.
Para los gráficos de
esta sección, al pasar el cursor sobre un punto determinado, se
despliega la información de ese punto. Particularmente, que país es, el
año y el valor de la variable.
El tamaño de cada punto varía
dependiendo los goles que haya convertido cada país.
El siguiente gráfico muestra los Goles por partido de cada país en cada uno de los mundiales.
El siguiente gráfico muestra las Sustituciones por
partido de cada pais en cada uno de los mundiales. Destacamos
aquí que impacta como han ido aumentando las sustituciones máximas
permitidas, desde 2 a 3 y luego a 5. Hay algunos países que
ocasionalmente han excedido esos límites, lo cual se debe a las
sustituciones adicionales por tiempo extra añadido al partido.
Solo
se cuenta con información a partir del año 1970.
La variable Tarjetas por partido suma las tarjetas amarillas y rojas que han sido cobradas en los partidos a partir del año 1970.
Siguiendo la línea de las faltas cobradas con tarjetas, se puede
analizar cómo fue variando la cantidad de Penales por
partido.
Para esta variable, se tienen datos desde
1982.
Y, de manera análoga, los Partidos convertidos por partidos:
Teniendo la información sobre los penales pateados y convertidos, se
puede analizar la Eficiencia en la conversión de goles.
En el siguiente gráfico, se puede observar cómo ha sido la
eficiencia a lo largo de los años, agrupado por continente.
La
eficiencia se calcula como la cantidad de goles convertidos en penal
sobre la cantidad de penales pateados.
En las referencias, se puede
clicklear un continente en particular para ocultar su gráfico.
En lo que respecta exclusivamente a la última edición de la copa del mundo, a continuación se presenta una lista de la eficiencia de los paises que han pateado penales.
3.4 Performance en cada mundial.
Consagrarse campeón del mundo no es nada fácil. Se deben ganar todos,
o casi todos, los partidos jugados.
A continuación, se muestran
cuantos partidos ganó, empató y perdió (en ese orden) los países que
lideran el podio en base al score diseñado.
En la Shiny app adjunta
se pueden ver los resultados para todos los países.
4 Conclusiones
A lo largo del trabajo se ha seleccionado, organizado y limpiado
datos para convertirlos en información. Esa información luego fue
transformada para que se pueda visualizar en gráficos interesantes,
intuitivos y amigables.
Si bien aquí se optó por graficar las
variables más representativas del dataset orginal, para la persona al
que le interese la temática, la información abunda, y son innumerables
las variables de interés.
Para futuras investigaciones, sería
sumamente interesante complementar la información presentada con datos
sobre cómo vivieron las personas, los hinchas de cada equipo, cada uno
de los mundiales. Para ello Twitter se perfila como una base de datos
ideal.